“我们总是高估一年或两年能够做到的,而低估五年或者十年中能够做到的。”这是比尔·盖茨在评论科技影响力时的一句名言,也是处在万物智能化节点上的人们的常有感慨。当变革悄然发生时,来自边缘 AI 的力量从未缺席。站在下一个5年征程的起点,地平线推出了5 周年特辑,回顾与伙伴们一起走过的路,一起蕴育的希望。我们请这些有“智”者代表地平线一起前行的伙伴们展示赋能成就,展示为大众带来的普惠成果,为人们带来的点滴安全、美好。 特辑第三篇,我们献给“让每个座位都有理想服务”的理想。2011 年,iPhone 4s 面世,苹果 Siri 以智能语音助手的身份登台亮相。自此,与设备直接对话的交互方式迅速开始流行起来。在继手机、音箱之后,车载语音交互成为了语音应用的膏腴之地。车载语音在中国的落地始于 2013 年,最早由宝马将其带入中国,仅在部分高端车型配备车载语音功能。随着技术成熟与用户认知的提升,各大汽车厂商开始在新款车型上配置更为自然的交互方式,智能语音开始逐渐成为汽车智能化的标配。毫无疑问,“智能”正成为越来越多的汽车标配,但智能远不止是浅显的初级功能,它也体现在每一个对待用户的应用细节上。这一点,在国内新造车势力中体现的尤为明显。作为一家纯正的智能电动车品牌,理想致力于通过创新科技为用户打造更自由的智能电动车。为此,理想一直不吝啬在技术上的投入,并在全球范围内同顶级的技术供应商深入合作。在其推出的理想 ONE 智能电动车上,除了过硬的质量,以用户为中心的智能应用探索体现的尤为明显。以语音交互为例,对于车载语音的落地而言往往需要考虑到更细,譬如针对不同乘客发声的定位与识别、车内嘈杂环境的识别等。为了打造精准的全车语音交互,让车内每个用户都能享受到与汽车直接对话的交互体验,理想汽车经过长达数月的前期合作与验证,选择了地平线为其车内交互提供“车载多音区交互技术”支持。
地平线底层技术加持下,理想ONE 利用车内的四个高灵敏度麦克风,结合领先的声源定位、盲源分离和降噪算法,能够实现对不同位置乘客的语音指令的精准区分和识别,快速响应乘客对于车辆设置、导航、音乐、视频等多种需求,让车内交互更加方便快捷。实测证明,该方案声源定位准确率高达 95%,远超市场现有的语音分区方案。
地平线多音区分布式麦克风阵列示例
除了可让汽车实现“听声辨位”的语音分区特色功能,地平线的语音方案可支持免唤醒命令词达 30 余个,覆盖导航、娱乐、车控、服务等大多数日常用车场景,用户无需语音唤醒,即可轻松进行基本的控制。而通过近百万条级别的语料训练,地平线保障了唤醒和控制的精准度。精准语音分区与高效唤醒结合,地平线语音方案赋能理想ONE 将为司乘提供更优秀的车内交互体验。
自2019年12月正式开始交付以来,理想汽车仅用六个半月的时间就完成了第一个10000辆的交付,其中包含了春节假期和疫情的特殊时期,创下了中外造车新势力全新车型的最快交付10000辆的纪录。
根据中汽数据终端零售数据,2020年1-5月,理想ONE成为中国新能源中大型SUV市场(包含混合动力、插电式混合动力、纯电动、增程式电动)的绝对领先者,销量超过第二名到第八名的总和。在已交付用户用车满意度调查中,超过98%的用户表示对车辆使用满意并愿意推荐身边的朋友购买理想ONE。竞争激烈的新能源汽车市场,理想 ONE 作为后来者能够居于上游,其对智能化的探索与用户细节把控可谓至关重要。让车机“听声辨位”,是车载语音交互精耕细作的一大进步。然而,智能交互仅仅是语音就足够了吗?以人体这个“第一序列机器”为例,由感觉获得的知觉按下述比例发生:视觉占78%,听觉占13%,嗅觉占3%,触觉占3%,味觉占3%。但更为复杂的是,人脑除了要处理单一维度的感知信息,还会结合多个感知维度对环境做出判断与决策。相对于人类,智能座舱向多模感知迈进的过程中,所面临的感知挑战也并不简单。
智能座舱向多模感知迈进的过程中,需要强大的算力支撑多模交互将使设备能够结合用户行为习惯从而更精准的判断用户意图,实现 AI 时代的立体智能推荐多模交互。这一切,已经不再停留在产品设想层面,一些国内技术提供商开始将多模态人机交互产品落地化。但作为融合了视觉、语音等多感官的AI交互方式,多模交互需要强大的算力支撑才能够达成自然交互的目标。为了应对日益增长与更为碎片化的汽车计算需求,地平线正通过车规级 AI 芯片的持续探索与迭代,助力智能汽车拥有足够的强算力“大脑“。而在此基础上,地平线也将坚持开放赋能、成就客户的理念,持续提升工具链与算法模型库的易用性,助力合作伙伴更高效的打造具有差异化的产品。在可以预见的未来,汽车的AI感知能力仍将会不断演化,而如何借助人工智能让汽车更智能、让人机交互更自然,则将是车厂和相关技术企业在当下的重要目标。